几张图告诉你什么是人群画像分析-互联网大厂实践(文末赠书)
文末赠书
人群画像分析是对已经创建完成的人群进行画像分析,目的是从不同角度更深入地认识人群用户并挖掘其人群特点。
1 人群分布分析
2 人群指标分析
3 人群下钻分析
4 人群交叉分析
人群交叉分析可以选择多个画像标签维度,通过交叉计算不同标签值组合下的人群指标数据。相比下钻分析只专注某标签值的深入分析,交叉分析更偏重多维的全面分析,结果中包含所有维度组合后的分析数据。比如查看指定人群性别和常住省交叉计算后的用户平均在线时长,其分析结果包括性别男女和所有省份交叉组合后的人数占比以及平均在线时长数据。交叉分析的展示结果可以根据其数值大小呈现不同的颜色,从而快速区分并定位重点分析结果。图6-6展示了某人群基于性别和常住省的交叉分析示意图,其中北京男性用户模块颜色最深,代表该人群下北京市男性用户平均在线时长最大,具有显著的特点。
5 人群对比分析
人群对比分析通过对比两个人群的画像分析结果,可以找出人群间的主要差异。人群对比分析可以利用人群分布分析结果进行计算,假设两个人群A和B都计算出了性别分布数据,其中A人群男女占比分别是60%和40%,B人群男女占比分别是70%和30%,将两个人群的占比环形图放到一起便可以对比出人群间的主要差异。
6 工程实现方案
人群画像分析是在人群创建完成之后进行的,并不是每一个人群都需要进行画像分析,所以画像平台需要支持对人群进行画像分析配置。配置人群画像分析功能时可以指定标签维度和指标,该配置内容通过接口传递到服务端并存储到数据表中。当人群状态流转到“创建完成”状态之后(参见第5章人群状态机),人群画像计算引擎可以根据画像配置计算出分布分析和指标分析结果并存储到数据表中,之后便可以通过平台可视化页面查看人群分析结果。基于不同人群的分析结果可以进行人群对比分析并计算不同标签取值的TGI。对于自动更新人群,可以从数据库中查询一段时间内的标签分布数据并构建标签占比趋势图。人群下钻分析和交叉分析的使用方式比较灵活,使用者可以在平台上可以进行即席配置和分析,相关配置传递到服务端后可以转换为分析语句,借助ClickHouse引擎计算出分析结果后返回前端进行可视化展示。人群画像分析的基本流程如图6-8所示。
-- 性别占比统计语句 --
SELECT
gender, count(1) AS cnt
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table_ch
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
gender
FROM
userprofile_demo.userprofile_wide_table_ch
WHERE
p_date = '2022-08-26'
) t2 ON (t1.user_id = t2.user_id)
GROUP BY
gender
-- 平均在线时长统计语句 --
SELECT
avg(online_time) AS avgValue
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table_ch
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
online_time
FROM
userprofile_demo.userprofile_wide_table_ch
WHERE
p_date = '2022-08-26'
) t2 ON (t1.user_id = t2.user_id)
SELECT
province,
count(1) AS cnt
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table_ch
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
province
FROM
userprofile_demo.userprofile_wide_table_ch
WHERE
p_date = '2022-08-26'
AND gender = '男'
) t2 ON (t1.user_id = t2.user_id)
GROUP BY
province
SELECT
gender,
province,
avg(online_time) AS avgValue
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table_ch
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
gender,
province,
online_time
FROM
userprofile_demo.userprofile_wide_table_ch
WHERE
p_date = '2022-08-26'
) t2 ON (t1.user_id = t2.user_id)
GROUP BY
gender,
province
以上示例中的标签在数据表中的存储类型都是基本数据类型,对于特殊类型的标签如何实现画像分析?以兴趣爱好标签为例,其在数据表中以数组的方式进行存储,实际分析过程中需要将数据“打散”后再进行画像分析。Hive表中需要通过行转列LATERAL VIEW EXPLODE展开数组内容,ClickHouse表中可以使用arrayJoin函数实现。比如统计某人群兴趣爱好的分布,通过Hive和ClickHouse表进行分析的核心SQL语句如下所示。
-- 基于Hive表实现数组类标签的统计分析 --
SELECT
item,
count(1) AS cnt
FROM
(
SELECT
interests
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
interests
FROM
userprofile_demo.userprofile_wide_table
WHERE
p_date = '2022-08-26'
) t2 ON (t1.user_id = t2.user_id)
) joinTable LATERAL VIEW EXPLODE (interests) virtual_table AS item
GROUP BY
item
-- 基于ClickHouse表实现数组类标签的统计分析 --
SELECT
item,
count(1) AS cnt
FROM
(
SELECT
arrayJoin(interests) AS item
FROM
(
SELECT
user_id
FROM
userprofile_demo.crowd_result_table_ch
WHERE
crowd_id = 100
) t1
INNER JOIN (
SELECT
user_id,
interests
FROM
userprofile_demo.userprofile_wide_table_ch
WHERE
p_date = '2022-08-26'
) t2 ON (t1.user_id = t2.user_id)
)
GROUP BY
item
在画像分析的结果上可以再次沉淀生成人群。比如对某人群的兴趣爱好进行了分布分析,其中对军事感兴趣的用户占比为60%,可以将该批用户直接转化为人群,即从原始人群中找到了所有对军事感兴趣的用户并生成了新的人群。通过这种方式不仅打通了人群分析和人群创建功能,而且可以实现对人群的精细化筛选,该思路也同样适用于其他分析功能。
本文摘自《用户画像:平台构建与业务实践》一书
内容简介
这是一本从功能模块、技术实现、平台构建、业务应用4个层次由浅入深地讲解用户画像的著作。作者在某头部互联网公司经历了其用户画像平台从0到1并发展为画像中台的全过程,打下了扎实的技术功底,积累了丰富的业务经验,本书从技术和业务双重维度对整个过程进行了复盘。
具体来讲,本书主要包含如下内容:
(1)画像的作用、业界主流的4种商用画像平台的核心功能和实现逻辑;
(2)画像平台的主要功能、画像平台的技术架构与技术选型、画像平台的数据模型;
(3)画像平台4大功能模块:标签管理、标签服务、分群功能、画像分析的实现方案;
(4)从0到1搭建用户画像平台,包括环境搭建和前、后端工程框架搭建;
(5)画像平台在用户的不同生命周期阶段和各种业务场景中如何为业务赋能;
(6)画像平台的优化和佳实践。
书中有200+设计图和原型图,可以帮助读者更加直观地了解平台的实现原理及功能形态。20+真实应用案例,技术方案和案例均来自真实的项目。本书提供可运行的代码,能帮助读者快速搭建并部署用户画像平台。
作者介绍
张型龙
用户画像与用户增长领域的资深专家,同时拥有近10年的服务端和大数据方面的开发经 验。目前从事用户画像平台建设及业务实践相关的工作。毕业后入职百度国际化产品部,主要从事服务端研发工作,完成了海外消息服务、图片服务的升级与优化,在服务端框架、分布式与高并发方面积累了一定的经验。之后加入某头部互联网公司,主要从事用户增长与用户画像相关工作。在此期间从0到1搭建了公司的用户画像平台, 对画像业务和平台技术有了进一步的认识。随着画像的数据量和用户量不断增加,增加和优化了用户画像平台的功能,调整了用户画像平台的架构,使之发展成为一个画像中台,在这个过程中,掌握了画像平台架构以及超大规模数据量下的画像实现方案,对于如何使用画像数据取得业务价值也有了更深的认识。此外,近几年在用户画像领域申请了多项专利,在公司内及业界有一定的技术影响力。
免费赠书活动
为了感谢大家的支持,本书作者联合DataFun通过本次活动赠送5本书!
留言分享您对用户画像平台构建的心得体会或看法,入选留言点赞最多的前5名赠送定价¥109元的《用户画像:平台构建与业务实践》一书!先到先得~
抽奖日期截止至11月13日12:00中奖用户请留意私信~